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摘要 : 【 目的 】 分 析 文本 相似 度 计算 方法 ,了解 该 领域 的 发 展 态势 。【 文献 范围 ] 在 CNKI 和 Web of Science 中 


分 别 以 检索 式 “ 篇 名 : 文本 相似 度 OR 篇 名 : 词汇 相似 度 OR 篇 名 : 语义 相似 度 ”" 和 “TI: ‘text similarity’ or 
‘semantic similarity’ or ‘lexical similarity" ”并 限定 文献 类 型 进行 检索 , 最 终 得 到 69 篇 重点 文献 。【 方法 】 对 文本 相 
似 度 计算 方法 进行 系统 梳理 , 分 析 重 点 方法 的 基本 思想 、 特 点 并 总 结 未 来 发 展 方向 。[【 结果 】 形 成 了 较为 全 面 的 
分 类 描述 体系 , 文本 相似 度 计算 方法 可 分 为 4 类 : 基于 字符 串 的 方法 、 基 于 语料库 的 方法 、 基 于 世界 知识 的 方法 
和 其 他 方法 。 其 中 ， 基 于 神经 网 络 和 基于 世界 知识 的 方法 以 及 针对 路 领域 文本 的 相似 度 计算 将 成 为 该 领域 的 发 
展 趋势 。[【 局 限 】 仅 将 不 同方 法 本 身 作为 探讨 的 核心 , 未 进一步 分 析 方法 的 应 用 情况 。[ 结论 】 有 助 于 全 面 把 据 
和 深入 了 解 文 本 相似 度 计算 方法 的 研究 现状 和 未 来 趋势 。 
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在 信息 爆炸 时 代 ， 人 们 迫切 希望 从 海量 信息 中 获 
取 与 自身 需要 和 兴趣 吻合 度 高 的 内 容 。 为 了 满足 此 需 
求 ,出现 了 多 种 应 用 ,如 搜索 引 苟 、 自 动 问答 系统 、 文 
档 分 类 与 聚 类 、 文 献 查 重 、 文 献 精 准 推送 等 ， 而 这 些 
应 用 场景 的 关键 技术 之 一 就 是 文本 相似 度 计算 技术 。 
近年 来 , 文本 相似 度 受 到 研究 人 员 的 广泛 关注 ， 有 学 者 
对 相关 文献 进行 梳理 ,总 结 了 文本 相似 度 计算 方法 中"、 
词语 或 词汇 相似 度 算法 中、 基于 本 体 的 语义 相似 度 算 
法 "但 有 明显 不 足 : 部 分 文献 对 国内 进展 分 析 较 少 ， 
未 能 体现 出 国内 学 者 在 文本 相似 度 方面 所 取得 的 进展 
RU 综述 局 限于 文本 相似 度 的 某 一 分 支 方法 ， 
KAMER, BAERE., 还 有 文献 将 文本 相似 
度 分 为 两 类 一 一 基于 统计 或 者 语料库 方法 和 基于 世界 
知识 的 文本 相似 度 计算 方法 ,这 种 分 类 忽略 了 基于 字 
符 串 的 方法 和 句法 分 析 等 重要 算法 "1, 随 着 时 间 推 移 ， 


m} 


文本 相似 度 计算 出 现 新 的 研究 方法 ,所 以 有 必要 对 文 
本 相似 度 计 算 方 法 分 类 进行 扩展 。 本 文 旨 在 对 国内 外 
文本 相似 度 计算 方 法 的 研究 现状 进行 系统 梳理 , 分 析 
当前 各 种 方法 的 优 缺 点 ,形成 较为 全 面 的 文本 相似 度 
算法 分 类 描述 体系 , 并 总 结 未 来 发 展 方向 , 为 相关 研 
究 与 应 用 提供 参考 借鉴 。 与 此 同时 ,本文 揭示 了 文本 
表示 模型 的 变化 以 及 对 文本 相似 度 计算 方法 的 影响 。 
笔者 于 2016 年 11 月 28 日 ,采用 检索 式 “ 篇 名 : X 
本 相似 度 OR 篇 名 : 词汇 相似 度 OR 篇 名 : 语义 相似 
REE CNKI 数据 库 中 检索 ， 限制 条 件 为 “核心 期 刊 "和 
收录 来 源 为 “CSSCI 中 文 社会 科学 引文 索引 (2016- 
2017) 来 源 期 刊 ( 含 扩展 版 )” 得 到 中 文 文献 206 篇 ; 使 
用 “TI: ‘text similarity? or ‘semantic similarity’ or ‘lexical 
similarity ”的 检索 式 在 Web of Science 核心 数据 库 检 
索 , 文献 类 型 为 article， 得 到 270 篇 外 文 文献 。 经 过 清 
UE EZ, DRIO, wA fh 100 篇 文献 , E 
者 在 精读 的 基础 上 对 69 篇 重点 文献 进行 系统 梳理 。 


通讯 作者 : 陈 二 静 , ORCID: 0000-0002-4663-184X, E-mail: chenerjing@mail.las.ac.cn。 
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2 文本 相似 度 定义 及 其 相关 概念 辨析 


文本 相似 度 在 不 同 领域 被 广泛 讨论 ， 由 于 应 用 场 
景 不 同 , 其 内 涵 有 所 差异 , 故 没有 统一 、 公 认 的 定义 。 
Lin 中 从 信息 论 的 角度 阐明 相似 度 与 文本 之 间 的 共性 
和 差异 有 关 , 共性 越 大 、 差 异 越 小 , 则 相似 度 越 高 ; JE 
性 越 小 .差异 越 大 , 则 相似 度 越 低 ; 相似 度 最 大 的 情况 
是 文本 完全 相同 。 同 时 基于 假设 推论 出 相似 度 定理 ， 
如 公式 (DZ 所 示 。 


log P(common( A, B)) (1) 
log P(description( A, B)) 

其 中 ，common(4,B) 是 4 和 B 的 共性 信息 ， 
description(A, B) 是 描述 A 和 B 的 全 部 信息 ,公式 (1) 
表达 出 相似 度 与 文本 共性 成 正 相 关 。 由 于 没有 限制 应 
用 领域 , 此 定义 是 被 较 多 采用 的 概念 。 

相似 度 与 相关 度 是 容易 混淆 的 概念 ， 大量 学 者 人 
对 此 做 过 对 比 说 明 。 相 关 度 体现 在 文本 共 现 或 者 以 任何 
形式 相互 关联 (包括 上 下 位 关系 、 同 义 关系 、 反 义 关 系 、 
部 件 - 整 体 关系 、 值 -属性 关系 等 CD)， 反 映 出 文本 的 组 
合 特点 站。 而 相似 度 是 相关 度 的 一 种 特殊 情况 , 包括 上 
下 位 关系 和 同 义 关系 。 由 此 得 出 , 文本 相似 度 越 高 , 则 
相关 度 越 大 , 但 是 相关 度 越 大 并 不 能 说 明 相 似 度 高 。 
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相似 度 一 般 可 用 [0,1] 之 间 的 实数 表示 , 该 实数 
可 通过 语义 距离 计算 获得 相似 度 与 语义 距离 旦 反比 
关系 , 语义 距离 越 小 ， 相似 度 越 高 ; 语义 距离 越 大 ， 
相似 度 越 低 。 通 常用 公式 (2)"" 表示 相似 度 与 语义 距 
离 的 关系 。 
(24 
na S da e 
Jh, Dis(S,,S5) 表示 文本 S4. Sp 之 间 的 非 负 语 
SUBE a 为 调节 因子 ,保证 了 当 语 义 距 离 为 0 时 公 
式 (2) 具 有 意义 。 
文本 相似 度 计算 中 还 有 一 个 重要 概念 是 文本 表 
I, 代表 对 文本 的 基本 处 理 , 目的 是 将 半 结 构 化 或 非 
结构 化 的 文本 转换 为 计算 机 可 读 形式 。 文 本 相似 度 计 
算 方法 的 不 同 本 质 是 文本 表示 方法 不 同 。 


3 文本 相似 度 计 算 方 法 


大 多 学 者 将 文本 相似 度 计算 方法 分 为 基于 统计 或 
者 语料库 的 方法 和 基于 世界 知识 的 方法 ,这 种 分 类 忽 
略 了 基于 字符 串 和 句法 分 析 等 重要 算法 ， 且 近年 来 有 
新 的 方法 出 现 , 所 以 本 文 借鉴 Gomaa 等 所 的 分 类 框架 ， 
对 分 类 体系 进行 扩展 和 细 分 ,如 图 1 所 示 。 


VSM 
LSA、GLSA、PLSA 


词 袋 异型 


图 1 文本 相似 度 计 算 方 法 分 类 


将 文本 相似 度 计算 方法 分 为 4 大 类 : 基于 字符 串 


(String-based) 的 方法 、 基 于 语料库 (Corpus-based) 的 方 


法 、 基 于 世界 知识 (Knowledge-based) 的 方法 和 其 他 方 


数据 分 析 与 知识 发 现 


法 。 基 于 字符 串 的 方法 也 称 作 “ 字 面相 似 度 方法 ”， 其 
中 较为 典型 的 方法 包括 最 长 公共 子 串 (Longest 
Common Substring, LCS)、 编 辑 距离 、Jaccard 等 。 由 


于 基于 字符 串 的 方法 没有 考虑 文本 的 语义 信息 ,， 计 
算 效 果 受 到 一 定 限 制 。 为 解决 这 一 问题 ， 学 者 们 开 
台 对 语义 相似 度 方 法 展开 研究 , 包括 基于 字符 串 的 
方法 、 基 于 语料库 的 方法 、 基 于 地界 知识 的 方法 和 
其 他 方法 。 其 中 其 他 方法 又 包括 句法 分 析 和 混合 方 
法 , 句法 分 析 是 对 句子 的 语法 结构 分 析 , 也 属于 语义 
分 析 的 一 种 , 但 其 不 依赖 于 某 种 语料库 或 世界 知识 ， 
所 以 被 划分 到 其 他 方法 。 混 合 方法 则 是 对 几 种 方法 的 
综合 。 
31 基于 字符 串 

该 方法 从 字符 串 匹 配 度 出 发 ， 以 字符 串 共 现 和 重 


复 程度 为 相似 度 的 衡量 标准 。 根 据 计算 粒 度 不 同 ， 可 
将 方法 分 为 基于 字符 (Character-Based) 的 方法 和 基于 
词语 (Term-Based) 的 方法 。 一 类 方法 单纯 从 字符 或 词语 
的 组 成 考虑 相似 度 算法 ， 如 编辑 距离 、 汉 明 距 离 、 余 
弦 相 似 度 、Dice 系数 、 欧 式 距离 ; 另 一 类 方法 还 加 入 了 
字符 顺序 ， 即 字符 组 成 和 字符 顺序 相同 是 字符 串 相 似 
的 必要 和 条件， 如 最 长 公共 子 串 (Longest Common 
Substring, LCS), Jaro-Winkler; 再 一 类 方法 采用 集合 思 
想 , 将 字符 串 看 作 由 词语 构成 的 集合 , 词语 共 现 可 用 和 集 
合 的 交集 计算 , 如 N-gram, Jaccard, Overlap Coefficient, 
表 1 列 出 了 主要 方法 , 其 中 Sa BERTIE A, B- 


R1 ”基于 字符 串 的 代表 方法 


类 型 方法 基本 思想 类 型 特点 与 不 足 
编辑 距离 。 ”$4 转换 到 5; 需 要 删除 、 持 入 、 圭 换 操 作 的 最 少 次 数 。 字符 组 成 ”计算 准确 ,但 费时 。 
汉 明 距离 3 (Xs 2 ， 其 中 xb yr 分 别 表示 字符 串 S4. Ss 字符 组 成 ia 2 加 运算 ， 简 化 长 文本 计算 ， 
对 应 码 字 第 K 位 的 分 量 。 TOES 
简单 ， 针对 派生 词 和 短 
LCS 共 现 且 最 长 的 子 字符 串 。 ds PR 


较 好 效果 ,但 不 适用 于 长 文本 。 


基于 字符 


[Sal 1ss1 m 


Jaro-Winkler 


aaepe E) sem nre 
1 是 换 位 的 数目 。 相 似 度 计算 公式 为 dj «(pa - 4,9, 其 字符 顺序 


考虑 了 前 级 相同 的 重要 性 ,针对 短 
文本 有 较 好 效果 , 但 不 适用 于 长 文本 。 


中 qj; 是 两 个 字符 串 的 Jaro 距离 , D 是 前 缀 相同 的 长 度 ， 


规定 最 大 为 4。Winkler 将 p 定义 为 0.1。 


n 可 调 , 方法 较为 灵活 , 但 不 适用 于 


E 合 思想 
MEram 1 元 组 总 量 集合 思想 长 文本 。 
Sa- Se ai 将 文本 置 于 向 量 空间 , 解释 性 强 , 较 
ZR DRE ALE ajeg : 
Sn ILS, E S I FARE 为 常用 , 但 不 适用 于 长 文本 。 
. m 2xcomm(S ,,S,) xA 增强 相同 部 分 的 作 dJ, 有 效 关注 较 
Dice RAUA Tung 司 语 组 成 (t 
ice 系数 leng(S ,) * leng(S,) HIS 短 的 相同 文本 。 
DS ; 算法 简单 直接 ,但 效果 粗糙 , 不 适用 
基于 词语 欧式 距离 。 Vs?+5? 词 请 组 成 Tkr, 
Jaccard z — 集合 思想 不 适用 于 长 文本 。 
4 B 
m S, NS, ama DOT EAHBIESI SUE 
Coefficient ^ min(S,,S;) NEOS ehit, 相似 度 最 大 。 


基于 字符 串 的 方法 是 在 字面 层次 上 的 文本 比较 ， 
文本 表示 即 为 原始 文本 。 该 方法 原理 简单 、 易 于 实现 ， 
现 已 成 为 其 他 方法 的 计算 基础 。 但 不 足 的 是 将 字符 或 
词语 作为 独立 的 知识 单元 , 并 未 考虑 词语 本 丑 的 含义 
和 词语 之 间 的 关系 ,以 同义词 为 例 , 尽管 表达 不 同 , 但 


具有 相同 的 含义 ,而 这 类 词语 的 相似 度 依 靠 基于 字符 
串 的 方法 并 不 能 准确 计算 。 
3.0 ”基于 语料库 

基于 语料库 的 方法 利用 从 语料库 中 获取 的 信息 计 
算 文本 相似 度 。 基 于 语料库 的 方法 可 以 分 为 : 基于 词 


Data Analysis and Knowledge Discovery 


综述 评 人 


袋 模型 的 方法 、 基 于 神经 网 络 的 方法 和 基于 搜索 引擎 
的 方法 。 前 两 种 以 待 比较 相似 度 的 文档 集合 为 语料库 ， 
后 一 种 以 Web 为 语料库 。 

(1) 基于 词 袋 

词 袋 模型 (Bag of Words Model, BOW) 建 立 在 分 布 
假说 的 基础 上 ， 即 “词语 所 处 的 上 下 文 语 境 相 似 , 其 语 
义 则 相似 ”1 基本 思想 是 不 考虑 词语 在 文档 中 出 现 的 
顺序 , 将 文档 表示 成 一 系列 词语 的 组 合 。 根 据 考虑 的 
语义 程度 不 同 , 基于 词 袋 模型 的 方法 主要 包括 向 量 空 
间 模 型 (Vector Space Model, VSM) 、 湾 在 语义 分 析 
(Latent Semantic Analysis, LSA), WERTET LAR 
(Probabilistic Latent Semantic Analysis，PLSA) 和 潜在 
狄 利克 雷 分 布 (Latent Dirichlet Allocation, LDA)» 

(DVSM 

20 世纪 60 RZ, Salton 等 提出 VSML9， 这 种 方法 受 
到 广大 学 者 的 青睐 。 基 本 思想 是 将 每 篇 文档 表示 成 一 个 基于 
词 频 或 者 词 频 - 送 文 档 频 率 (Term Frequency-Inverse 
Document Frequency, TF-IDP) 权 重 的 实 值 向 量 ， 那么 N 篇 文 
档 则 构成 n 维 实 值 空间 ,其 中 空间 的 每 一 维 都 对 应 词 项 ， 每 
一 篇 文档 表示 该 空间 下 的 一 个 点 或 者 向 量 。 而 两 个 文档 的 相 
似 度 就 是 两 个 向 量 的 距离 ,一 般 采 用 余弦 相似 度 方法 计算 。 
已 有 学 者 对 VSM 方法 做 出 改进 ， 如 郭 庆 琳 等 1 通过 增加 关 
键 特征 词 改 进 DF 在 特征 值 选 择 时 过 滤 有 用 信息 的 不 足 ， 以 
及 在 计算 TF-IDF 时 加 入 特征 词 筛选 阶段 的 特征 权重 ,从 而 
在 没有 增加 时 间 和 空间 复杂 度 的 情况 下 , 提高 精确 度 。 李 连 
等 0 针对 传统 VSM 算法 没有 统计 文本 相同 特征 词 数量 而 导 
致 计算 不 准确 的 问题 ， 引入 表征 文本 特征 词 覆 盖 程 度 的 参 
数 ， 优 化 了 文本 相似 度 的 计算 结果 。 

基于 VSM 的 方法 基本 原理 简单 ,但 该 方法 有 两 个 明显 
缺点 : 一 是 该 方法 基于 文本 中 的 特征 项 进行 相似 度 计 算 ， 当 
特征 项 较 多 时 ,产生 的 高 维 稀疏 矩阵 导致 计算 效率 不 高 ; 二 
是 向 量 空间 模型 算法 的 假设 是 文本 中 抽取 的 特征 项 没有 关 
联 ， 这 不 符合 文本 语义 表达 。 

@LSA, PLSA 

LSAI I 算法 的 基本 思想 是 将 文本 从 稀疏 的 高 维 词汇 空 
间 映 射 到 低 维 的 潜在 语义 空间 ,在 潜在 语义 空间 计算 相似 
性 。LSA 是 基于 VSM 提出 来 的 ， 两 种 方法 都 是 采用 空间 向 
量 表示 文本 , 但 LSA 使 用 潜在 语义 空间 ， 利 用 奇异 值 分 解 
(Singular Value Decomposition，SVD) 技 术 对 高 维 的 词 条 - 文 
档 和 矩阵 进行 处 理 ， 去 除了 原始 向 量 空间 的 某 些 “嗓音 ”, 使 数 
JE T 4 3. Hofmann?" LSA 基础 上 引入 主题 层 , 采用 期 
望 最 大 化 算法 (Expectation Maximization，EM) 训 练 主题 ,得 
到 改进 的 PLSA 算法 ,LSA 本 质 上 是 通过 降 维 提高 计算 准确 
E, 但 该 算法 复杂 度 比 较 高 ， 可 移植 性 差 。 比 较 之 下 , PLSA 
具备 统计 基础 ， 多 义 词 和 同义词 在 PLSA 中 分 别 被 训练 到 不 
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同 的 主题 和 相同 的 主题 下 ,从 而 避免 了 多 义 词 、 同 义 词 的 影 
响 ,使 得 计算 结果 更 加 准确 ， 但 不 适用 于 大 规模 文本 。 

LDA 

LDAP0 主 题 模型 是 一 个 三 层 贝 叶 斯 概率 模型 ， 包 含 词 、 
主题 和 文档 三 层 结构 。 采 用 LDA 计算 文本 相似 性 的 基本 思 
想 是 对 文本 进行 主题 建 模 , 并 在 主题 对 应 的 词语 分 布 中 遍 
历 抽 取 文 本 中 的 词语 得 到 文本 的 主题 分 布 ,通过 此 分 布 计 
SEXUM EU, 5 PLAS 不 同 的 是 , LDA 的 文档 到 主题 服 
从 Dirichlet 分 布 ， 主题 到 词 服从 多 项 式 分 布 ,此 方法 适用 于 
大 规模 文本 集 ,也 更 具有 鲁 棒 性 ,能 大 平等 [3 提出 利用 LDA 
计算 问 句 相似 度 , 将 查询 语句 和 问题 分 别 用 LDA 主题 分 布 
概率 表示 , 采用 余弦 相似 度 计 算 二 者 的 相似 度 , 效果 有 了 一 
定 的 提高 ,尤其 对 特征 词 不 同 但 主题 相似 的 问题 有 突出 效 
果 ， 该 方法 适用 于 单个 问 句 。 张 超 等 2 将 LDA 分 别 应 用 于 
文本 的 名 词 、 动 词 和 其 他 词 , 得 到 不 同 词性 词语 的 相似 度 ， 
综合 加 权 三 个 相似 度 计算 文本 相似 度 ， 此 方法 由 于 将 建 模 
过 程 并 行 化 , 从 而 降低 了 时 间 复 杂 度 。 

以 上 三 类 尽管 都 是 采用 词 袋 模型 实现 文本 表示 ， 
但 是 不 同方 法 考虑 的 语义 程度 有 所 不 同 。 基 于 向 量 空 
间 模 型 的 方法 语义 程度 最 低 , 仅仅 建立 在 分 布 假说 理 
论 基础 上 , 而 忽略 了 词语 之 间 的 关联 。 基 于 LSA, 
PLSA 的 方法 语义 程度 居中 ,加 入 潜在 语义 空间 概念 ， 
解决 了 向 量 空间 模型 方法 的 稀 玻 矩阵 问题 并 降低 了 多 
义 词 、 同 义 词 的 影响 。 基 于 LDA 主题 模型 的 方法 语义 
程度 最 高 ， 基 于 相似 词语 可 能 属于 同一 主题 的 理论 ， 
主题 经 过 训练 得 到 ， 从 而 保证 了 文本 的 语义 性 。 

(2) 基于 神经 网 络 

通过 神经 网 络 模型 生成 词 向 量 (Word Vector , Word 
Embeddings 或 Distributed Representation)? 9 计算 文 
本 相似 度 是 近年 来 自然 语言 处 理 领域 研究 较 多 的 方 
法 。 不 少 产生 词 向 量 的 模型 和 工具 也 被 提出 ， 如 
Word2 Vec?” 和 GloVe 等 。 词 向 量 的 本 质 是 从 未 标记 
的 非 结 构 文 本 中 训练 出 的 一 种 低 维 实数 向 量 ,这 种 表 
达 方 式 使 得 类 似 的 词语 在 距离 上 更 为 接近 , 同时 较 好 
地 解决 了 词 袋 模型 由 于 词语 独立 带 来 的 维 数 灾难 和 语 
义 不 足 问题 。Kenter 等 所 合并 由 不 同 算法 、 语 料 库 、 
参数 设置 得 到 的 不 同 维度 词 向 量 并 训练 出 特征 , 经 过 
监督 学 习 算 法 得 到 训练 分 类 器 , 利用 此 分 类 器 计算 未 
标记 短文 本 之 间 的 相似 度 分 数 。Kusner 等 中 提出 使 用 
词 向 量 计算 文档 相似 度 的 新 方法 ， 即 在 词 向 量 空间 里 
计算 将 文档 中 所 有 的 词 移动 到 另 一 文档 对 应 的 词 需要 
的 最 小 移动 距离 (Word Mover's Distance, WMD), 求解 
出 来 的 WMD 则 是 两 个 文档 的 相似 度 。Huang 等 在 


WMD 的 基础 上 提出 改进 方法 一 一 监督 词 移动 距离 
(Supervised-WMD, S-WMD), 实质 上 加 入 新 文档 特征 
“re-weighting” 和 新 移动 代价 “metric A”, 令 WMD 方法 
适用 于 可 监督 的 文本 。 

基于 神经 网 络 方法 与 词 袋 模型 方法 的 不 同 之 处 在 
于 表达 文本 的 方式 。 词 向 量 是 经 过 训练 得 到 的 低 维 实 
数 向 量 ， 维 数 可 以 人 为 限制 ， 实 数值 可 根据 文本 距离 
调整 ,这 种 文本 表示 符合 人 理解 文本 的 方式 , 所 以 基 
于 词 向 量 判断 文 本 相似 度 的 效果 有 进一步 研究 空间 。 

(3) 基于 搜索 引擎 

随 着 Web3.0 时 代 的 到 来 , Web 成 为 内 容 最 丰富 、 
数据 量 最 大 的 语料库 , 5b lp 18 ze 5| SETHOCTTEQE RE 
进步 ,使 得 有 任何 需求 的 用 户 都 可 通过 搜索 找到 答 
案 。 自 从 Cilibrasi 等 所 提出 归 一 化 谷歌 距离 
(Normalized Google Distance, NGD) 之 后 ， 基 于 搜索 引 
擎 计算 语义 相似 度 的 方法 开始 流行 起 来 。 其 基本 原理 


是 给 定 搜索 关键 词 x、)” 搜索 引擎 返回 包含 x、?7 的 网 
页 数量 f(x)、fQ) 以 及 同时 包含 x M y 的 网 页 数量 
f Gs y). HAER BANE E BS AD )P? rz o 
NGDU y) EON mnt On. 609) 
max(G(x), Gy)) 
. max (log f (x),log f(y)} — log f(x, y) 
log N — min {log f(x),log fO) 
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但 是 该 方法 最 大 的 不 足 是 计算 结果 完全 取决 于 搜 
索引 擎 的 查询 效果 , 相似 度 因 搜索 引擎 而 异 。 刘 胜 久 
等 "采用 多 个 搜索 引擎 的 搜索 结果 , 根据 搜索 引擎 的 
市 场 份额 为 其 赋予 权重 ， 得 到 的 结果 更 加 综合 全 面 。 
此 方法 简单 ， 避免 了 单个 搜索 引擎 所 导致 的 偏差 , 但 
是 没有 对 各 搜索 结果 进行 重要 性 分 析 。 一 些 学 者 提出 
通过 分 析 返 回 网 页 内 容 计算 相似 度 ，Sahami 等 "将 
查询 关键 词 返 回 的 网 页 内 容 构 建 为 语 境 向 量 (Context 
Vector), 采用 相似 度 核 函数 计算 语 境 向 量 之 间 的 相 
似 度 ， 比 单纯 使 用 搜索 数量 计算 相似 度 有 更 丰富 的 
语义 信息 。 第 三 类 方法 是 综合 搜索 结果 数量 和 搜索 结 
果 内 容 ,陈海燕 所 定义 了 语义 片段 ， 即 两 个 关键 词 共 
同 出 现 的 片段 ,通过 分 析 网 页 内 容 获取 语义 片段 数 
量 ， 蔡 换 包含 两 个 关键 词 的 网 页 数量 ， 得 到 较为 精确 
的 相似 度 。 

基于 搜索 引擎 的 相似 度 方法 为 相似 度 计 算 提 供 了 


丰富 的 语义 信息 , 计算 结果 依赖 于 搜索 引 警 的 搜索 效 
果 以 及 对 网 页 内 容 的 语义 分 析 效 果 , 所 以 精确 获取 返 
回 网 页 数量 和 有 效 分 析 网 页 内 容 成 为 关键 问题 。 
3.3 ”基于 世界 知识 
基于 世界 知识 的 方法 是 指 利用 具有 规范 组 织 体系 
的 知识 库 计 算 文本 相似 度 , 一般 分 为 两 种 : 基于 本 体 
知识 和 基于 网 络 知 识 。 前 者 一 般 是 利用 本 体 结 构 体 系 
中 概念 之 间 的 上 下 位 和 同位 关系 ， 如 果 概 念 之 间 是 语 
义 相似 的 , 那么 两 个 概念 之 间 有 且 仅 有 一 条 路 径 [ ”1。 
而 网 络 知识 中 词 条 呈 结 构 化 并 词 条 之 间 通 过 超 链接 形 
式 展现 上 下 位 关系 , 这 种 信息 组 织 方式 更 接近 计算 机 
的 理解 。 概 念 之 间 的 路 径 或 词 条 之 间 的 链接 就 成 为 文 
本 相似 度 计算 的 基础 。 

(1) 基于 本 体 

文本 相似 度 计算 方法 使 用 的 本 体 不 是 严格 的 本 体 
概念 ， 而 指 广泛 的 词典 、 叙 词 表 、 词 汇 表 以 及 狭义 的 
本 体 。 随 着 Berners-Lee 等 提出 语义 网 的 概念 , 本体 成 
为 语义 网 中 对 知识 建 模 的 主要 方式 , 在 其 中 发 挥 着 重 
要 作用 。 由 于 本 体能 够 准确 地 表示 概念 含义 并 能 反映 
出 概念 之 间 的 关系 , 所 以 本 体 成 为 文本 相似 度 的 研究 
基础 中 。 最 常 利 用 的 本 体 是 通用 词典 , 例如 WordNet, 
《 知 网 》(HowNet) 和 《同义词 词 林 》 等 , 除了 词典 还 有 
一 些 领域 本 体 , 例如 医疗 本 体 、 电 子 商 务 本 体 、 地 理 
本 体 、 农 业 本 体 等 。 

结合 Hliaoutakis"" , Batet 等 9" 的 研究 , 将 基于 
本 体 的 文本 相似 度 算法 概括 为 4 种 : 基于 距离 (Edge- 
Counting Measures) 、 基 于 内 容 (Information Content 
Measures) 、 基 于 属性 (Feature-based Measures) 和 混合 式 
(Hybrid Measures) 相 似 度 算法 。 表 2 列 出 了 各 种 方法 的 
基本 原理 、 代 表 方 法 和 特点 。 

基于 本 体 的 方法 将 文本 表示 为 本 体 概 念 以 及 概念 
之 间 的 关系 , 该 方法 能 够 准确 反映 概念 内 在 语义 关系 ， 
是 一 种 重要 的 语义 相似 度 计算 方法 ， 主 要 缺点 如 下 : 

(本 体 一 般 需要 专家 参与 建设 , 耗费 大 量 时 间 和 精力 ， 
而 已 有 的 通用 本 体 存 在 更 新 速度 慢 、 词 汇 量 有 限 等 问题 ， 不 
适用 于 出 现 的 新 型 词语 ; 

@) 利 用 本 体 计 算 文本 相似 度 ， 首 先是 在 词语 层次 进行 
计算 ， 然 后 累加 词语 相似 度 获得 长 文本 相似 度 ， 相 对 基于 语 
料 库 的 方法 对 文本 整体 处 理 而 言 计 算 效率 较 低 ; 

图 无 论 是 通用 本 体 还 是 领域 本 体 ， 本 体 之 间 相 互 独立 
将 带 来 本 体 异 构 问 题 ， 不 利于 跨 领 域 的 文本 相似 度 计 算 。 
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表 2 基于 本 体 的 方法 
基于 距离 基于 内 容 基于 属性 混合 式 
将 基于 贤 EFA 
基本 。 用 概念 之 问 的 路 径 长 度 表示 — HENDRER EU MALAZMHARA E AAAS 
E HE y EN HE 四 AAA ST t ADI He ZÉj = RA 
原理 ”语义 距离 们 之 间 的 语义 相似 度 量 衡量 它们 之 间 的 相似 度 算 概念 之 间 的 相似 度 
id Shortest PathP*!, Wu 等 BY、 : , PERONA d E 
代表 . CESAR. re aiii Lin?!, Resnik?!, Lord 4&1. [46] AREN egal 
方法 、Li 寺 ”-、 Y dig n Tversky Ayy Agl] 
企 计 算 方 ; 节点 深度 、 计 算 方 法 采用 不 同 节点 的 信 44 ELA 3 $ "TE 
n E AE MEAE EpLEnGAmAM TENOR 计算 方法 中 权重 参数 设置 
RES XN X. MX. E DHE ATH S 的 完整 性 大 多 依赖 领域 专家 
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(2) 基于 网 络 知识 

由 于 本 体 中 词语 数量 的 限制 ， 有 些 学 者 开始 转向 
基于 网 络 知识 方法 的 研究 ,原因 是 后 者 覆盖 范围 广 
泛 、 富 含 丰 富 的 语义 信息 、 更 新 速度 相对 较 快 , 使 用 


最 多 的 网 络 知识 是 维基 百科 、 百 度 百科 。 网 络 知识 一 
般 包括 两 种 结构 , 分 别 是 词 条 页 面 之 间 的 链接 和 词 条 
之 间 的 层次 结构 。 孙 琛 琛 等 "将 其 概括 为 : 文章 网 络 
和 分 类 树 ( 以 树 为 主题 的 图 )。 

最 早 使 用 维基 百科 计算 语义 相关 度 是 Strube 等 中 
提出 的 WikiRelate! 方 法 , 基本 原理 是 在 维基 百科 中 检 
索 出 与 词语 相关 的 网 页 ， 并 通过 抽取 网 页 所 属 类 别 找 
到 分 类 树 , 最 终 基 于 抽取 的 页 面 以 及 在 分 类 法 中 的 路 
径 计算 相关 度 。 该 方法 利用 了 维基 百科 的 层次 结构 ， 
计算 效果 与 基于 本 体 的 方法 相当 , 然而 此 方法 更 适用 
于 词语 丰富 的 文本 。Gabrilovich 等 9 提出 ESA 方法 ， 
基于 维基 百科 派生 出 高 维 概念 空间 并 将 词语 表示 为 维 
基 百 科 概 念 的 权重 向 量 , 通过 比较 两 个 概念 向 量 ( 比 如 
采用 余弦 值 方法 ) 得 到 语义 相关 度 ， 计 算 效 果 优 于 人 工 
判读 。ESA 比 WikiRelate! 表 达 更 加 复杂 的 语义 , 而 且 
模型 对 用 户 来 说 简单 易 懂 , 鲁 棒 性 较 好 。Milne 5&0?! 
提出 的 WLM 方法 仅 使 用 维基 百科 的 链接 结构 以 及 较 
少 的 数据 和 资源 ， 比 ESA 简单 ,但 计算 结果 不 如 ESA 
理想 。 严 格 来 说 ,这 些 方法 是 计算 文本 语义 相关 度 ， 
其 包括 范围 比 语义 相似 度 大 , 但 是 这 些 方法 为 基于 维 
基 百 科 的 语义 相似 度 计 算 提 供 了 良好 的 借鉴 。 盛 志 超 
等 5 提出 一 种 模仿 人 脑 联 想 方 式 的 方法 , 基于 维基 百 
科 页 面 的 链接 信息 , 并 依托 TF-IDF 算法 得 到 词语 相 
似 度 ， 尽 管 取 得 了 一 定 的 效果 , 但 是 将 维基 百科 的 页 
面 信息 和 类 别 信息 以 较为 简单 的 方式 结合 成 统一 的 知 
WRI, 过 于 简单 ,缺乏 一 定 的 理论 支撑 。 彭 丽 针 等 六 
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考虑 到 维基 百科 页 面 的 社区 现象 69， 对 带 有 标签 的 页 
面 采 用 HITS 算法 获取 社区 类 别 ， 基 于 词语 类 别 与 链 
接 关系 计算 相似 度 , 实验 证 明 该 方法 具有 一 定 的 可 行 
性 和 有 效 性 , 但 由 于 未 深入 分 析 页 面 内 容 导 致 语义 程 
度 较 弱 。 

与 维基 百科 类 似 , 百度 百科 作为 众人 参与 可 协作 
的 中 文 百科 全 书 , 到 2017 年 1 月 已 经 有 超过 1 400 万 
的 词 条 , 数据 量 成 为 百度 百科 相 较 于 其 他 语料库 的 绝 
对 优势 。 詹 志 建 等 中 在 分 析 百 科 词 条 结构 的 基础 上 ， 
采用 向 量 空间 模型 计算 百科 名 片 、 词 条 正文 、 相 关 词 
条 的 相似 度 , 采用 基于 信息 内 容 的 方法 计算 开放 分 类 
的 相似 度 ， 最 终 加 权 得 到 词 条 相似 度 ,计算 效果 优良 ， 
但 是 该 方法 对 词 条 语义 信息 的 分 析 并 不 深入 。 尹 坤 等 5 
在 计算 方法 中 引入 图 论 思想 , 将 百度 百科 视 为 图 ， W 
条 视 为 图 中 节点 , 采用 SimRank 方法 计算 词 条 之 间 的 
相似 度 。 该 方法 充分 利用 了 百科 词 条 之 间 的 链接 关系 ， 
但 仅 对 于 相关 词 条 较 多 的 词 条 有 好 的 效果 ,而 对 于 相 
关 词 条 较 少 的 词 条 的 计算 效果 则 不 理想 。 

综 上 所 述 , 基于 网 络 知识 的 文本 相似 度 计算 方法 
大 多 利用 页 面 链 接 或 层次 结构 ,能 较 好 地 反映 出 词 条 
的 语义 关系 。 但 其 不 足 在 于 : 词 条 与 词 条 的 信息 完备 程 
度 差异 较 大 , 不 能 保证 计算 准确 度 ; 网 络 知识 的 产生 方 
式 是 大 众 参 与 ， 导致 文本 缺少 一 定 的 专业 性 。 
3.4 其 他 方法 

除了 基于 字符 串 、 基 于 语料库 和 基于 世界 知识 的 
方法 , 文本 相似 度 计算 还 有 一 些 其 他 方法 , 本文 将 研 
究 较 多 的 句法 分 析 和 混合 方法 作为 其 他 方法 的 代表 进 
行 具体 曾 述 。 

(1) 句法 分 析 

文本 相似 度 方法 一 般 以 词语 为 粒度 ， 而 较 少 关注 


词语 的 组 合 方式 和 组 合 内 涵 , 也 就 是 句法 分 析 。 句 法 
是 文本 语句 的 重要 组 成 部 分 , 相同 词语 经 由 不 同 句法 
组 织 之 后 所 表达 的 含义 差别 很 大 , 所 以 句法 分 析 对 计 
算 句 子粒 度 的 相似 度 有 着 重要 作用 。 

穗 志方 等 5 提出 “骨架 依存 分 析 法 ”并 基于 此 方法 
设计 语句 相似 度 计算 模型 ， 基本 思想 是 分 析 句 子 的 谓 
语 中 心 词 以 及 其 直接 支配 成 分 , 将 分 析 结 果 以 依存 树 
的 形式 表达 出 来 , 通过 比较 骨架 依存 树 得 到 文本 相似 
度 。 该 方法 给 出 单 句 相似 度 计 算 方法 , 适用 于 问答 系 
统 应 用 场景 , 但 针对 全 文 计算 相似 度 时 , 要 依次 分 析 
语句 成 分 并 构建 依存 树 就 会 造成 巨大 工作 量 , 所 以 该 
方法 不 适用 于 长 文本 。 李 彬 等 WI 仪 考虑 为 有 效 搭配 对 
构建 依存 树 ， 即 句子 中 的 动词 、 名 词 和 形容 词 及 其 直 
接 支配 成 分 , 大 大 降低 了 计算 复杂 度 和 时 间 成 本 , 但 
对 于 包含 较 多 动词 的 长 句 效果 不 好 。 李 茹 等 [基于 汉 
语 框架 网 (CFN) 类 语义 资源 , 采用 多 框架 描述 句子 , 通 
过 比较 重要 度 高 的 框架 计算 句子 相似 度 。Blanco SE 
提出 三 层 逻 辑 形式 转换 (LFT) 的 新 型 句法 分 析 , 结合 
从 逻辑 验证 派生 出 的 语义 特征 和 监督 机 器 学 习 框架 ， 
获得 相似 度 分 数 ， 该 方法 首次 完成 从 句子 中 抽取 语义 
关系 并 应 用 到 文本 相似 度 计算 中 。 

基于 句法 分 析 的 关键 是 找到 句子 中 各 部 分 的 依存 
关系 或 语义 关系 , 在 计算 相似 度 的 同时 考虑 词语 相似 
度 和 关系 相似 度 , 故此 方法 具有 更 丰富 的 语义 , 但 是 
句子 本 身 的 复杂 性 为 框架 分 析 带 来 的 难度 和 工作 量 不 
容 小 凯 ， 目 前 研究 基本 从 两 个 方面 进行 改进 ， 有 效 提 
取 关 键 词 和 选择 合适 的 语义 框架 。 

Q) 混合 方法 

由 于 单一 算法 具有 一 定 优势 与 不 足 ， 所 以 学 者 综 


构 表 达 信 息 和 网 络 资源 的 统计 信息 计算 文本 相似 度 并 
取得 了 较 好 的 效果 。 王 小 林 等 "在 TF-IDF 算法 的 基 
础 上 加 入 信息 粹 和 信息 增益 并 结合 语义 加 权 因 子 , 最 
终 得 到 的 文本 相似 度 更 接近 现实 。Atoum 等 ("利用 基 
于 距离 和 基于 信息 内 容 方法 计算 词语 相似 度 , 将 词语 
相似 度 进行 加 权 并 融合 句子 长 度 得 到 文本 相似 度 。 

混合 方法 是 学 者 对 不 同方 法 结合 方式 的 探索 , 在 
一 定 程度 上 提高 文本 相似 度 计算 效果 。 由 于 文本 相似 
度 计算 领域 的 方法 颇 为 丰富 , 每 类 方法 中 的 影响 因素 
并 不 单一 ， 所 以 混合 方法 的 思路 较为 开阔 , 但 不 可 避 
免 的 是 综合 运用 的 过 程 中 可 能 缺乏 坚实 的 理论 基础 ， 
对 改进 结果 无 法 提供 强 有 力 的 支撑 。 


4 结 语 


文本 相似 度 方法 研究 已 经 取得 诸多 成 果 。 国 外 学 
者 首先 提出 文本 相似 度 计算 方法 , 国内 学 者 基于 国外 
研究 进行 了 大 量 改 进 。 本 文 纵 观 文本 相似 度 计算 方法 
的 发 展 情况 ,对 经 典 、 新 型 算法 进行 了 系统 前 述 和 比 
较 。 通 过 分 析 , 可 以 看 出 文本 相似 度 的 发 展 符合 人 类 
对 事物 的 认 知 规律 , 经 历 了 从 感性 到 理性 的 过 程 。 首 
先是 字面 方法 “看 ”上 去 相似 则 相似 ; 然后 以 “ 词 ”为 单 
位 , 采用 词 袋 模型 ， 上 下 文 描述 相似 则 相似 ; 而 文本 
中 词语 并 不 独立 , 词语 之 间 的 句法 影响 文本 相似 度 判 
Ir, 所 以 出 现 基于 句法 的 方法 ; 当 已 有 方法 仍 存 在 语 
义 不 足 问题 时 , 研究 人 员 则 利用 已 积累 的 知识 一 一 本 
V, 判断 相似 度 ; 随 着 Web3.0 的 发 展 , 网络 资源 成 为 
不 可 忽视 的 宝贵 财富 ， 于 是 出 现 以 网 络 知识 为 背景 和 
基于 搜索 引擎 的 计算 方法 ; 神经 网 络 算法 的 发 展 为 文 
本 表示 带 来 新 的 灵感 ， 出现 词 向 量 的 文本 表示 方式 。 


合 运 用 两 种 或 两 种 以 上 的 方法 计算 文本 相似 度 。 较 早 
时 期 , Jiang 等 加 将 WordNet 词典 分 类 结构 与 语料库 统 
计 信 息 结合 , 通过 计算 概念 相关 性 判断 文本 的 相关 
TE. Islam 等 四 结合 语料库 和 字符 串 方 法 , 使 用 词汇 数 
量 级 在 10 的 语料库 , 对 于 较 短 字符 串 使 用 LCS 方法 ， 
既 提 高 了 计算 效果 ,又 降低 了 时 间 复 杂 度 。Tasi 等 (的 
将 VSM 和 LCS 结合 起 来 , 同时 考虑 文本 的 序列 关系 
和 权重 ， 有效 地 提高 了 准确 率 。 魏 替 等 (9 结合 网 论 与 
信息 量 理论 提出 一 种 混合 方法 , 同时 考虑 词语 所 在 的 
有 向 无 环 图 和 处 于 不 同位 置 的 节点 内 在 信息 量 , 计算 
结果 比较 符合 人 工 判断 。Liu 等 7 结合 WordNet 的 结 


基于 当前 研究 成 果 , 笔者 认为 今后 文本 相似 度 计 算 方 
法 的 趋势 有 以 下 三 个 方面 : 

(1) 基于 神经 网 络 的 方法 研究 将 更 加 丰富 。 由 于 
词 向 量 表示 文本 ,所 表达 的 文本 语义 信息 更 符合 人 类 
认 知 ,所 以 随 着 第 三 次 人 工 智能 浪潮 的 到 来 , 神经 区 
络 算法 将 得 到 不 断 改 进 ， 基 于 神经 网 络 的 文本 相似 度 
计算 也 必 将 得 到 更 多 探索 。 

(2) 网 络 资源 为 文本 相似 度 计 算 方 法 研究 提供 更 
多 支持 。Web3.0、 移 动 网 络 以 及 未 来 5G 技术 的 实现 ， 
网 络 资源 无 疑 是 最 大 、 最 丰富 的 语料库 ， 与 此 同时 语 
义 网 和 关联 数据 进一步 发 展 ,网 络 文本 资源 面向 结构 
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化 与 互 连 化 。 所 以 新 型 的 信息 组 织 结构 与 信息 之 间 的 
链接 方式 将 应 用 到 文本 相似 度 计 算 之 中 。 


(3) 针对 特定 领域 以 及 器 领域 文本 的 相似 度 计算 


将 成 为 今后 发 展 的 重点 。 跨 学 科 合作 越 来 越 趋 于 常态 


化 ， 


领域 专家 的 合作 促进 跨 领 域 世 界 知 识 的 集成 并 为 


跨 领域 文本 的 相似 度 计算 提供 便捷 的 人 工 参 与 和 建议 。 
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Abstract: [Objective] This paper analyzes the popular text similarity measures and discusses their latest developments. 
[Coverage] We retrieved 69 key articles from CNKI and Web of Science databases by searching “TI: ‘text similarity? 
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or 'semantic similarity” or ‘lexical similarity' ”in Chinese and English respectively. [Methods] We systematically 
reviewed the text similarity measures focusing on their basic concepts, characteristics and future directions. [Results] 
There were four types of text similarity measures: String-based, Corpus-based, Knowledge-based and others. Measures 
based on the neural network, Knowledge-based measures and inter-disciplinary measures could be the future research 
directions. [Limitations] We did not discuss the applications of those measures. [Conclusions] This paper is a 
comprehensive review of text similarity measure research. 
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